中文文本分析相关资源汇总

Original 大邓大邓和他的Python 2022-07-09

收录于合集 #Python文本数据分析 123个

中文文本数据(挖掘)分析相关资源汇总

一、Python中文数据处理库

项目	地址	简介
jieba分词	https://github.com/fxsjy/jieba	中文分词库
中文复杂事件的概念与显式模式	https://github.com/thunderhit/eventextraction	中文复合事件的概念与显式模式，包括条件事件、因果事件、顺承事件、反转事件等事件抽取，并形成事理图谱。
中文信息抽取工具	https://github.com/fighting41love/cocoNLP	从中文文本数据中抽取出结构化的信息，如时间、手机号、运营商、邮箱、地址、人名、身份证
图片识别	https://github.com/breezedeus/cnocr	识别出图片中的中文文本
label-studio多媒体标注工具	https://github.com/heartexlabs/label-studio	可对文本、图片、音频和视频数据进行标注
中文可读性	https://github.com/cdimascio/py-readability-metrics	可读性算法包括Flesch-Kincaid Grade Level, Gunning Fog, ARI, Dale Chall, SMOG
Synonyms	https://github.com/huyingxi/Synonyms	用于自然语言理解的很多任务：文本对齐，推荐算法，相似度计算，语义偏移，关键字提取，概念提取，自动摘要，搜索引擎等。
SpaCy 中文模型	https://github.com/howl-anderson/Chinesemodelsfor_SpaCy	SpaCy 中文模型
Scattertext可视化	https://github.com/JasonKessler/scattertext	能否分析出某个类别的文本与其他文本的用词差异；简单修改后可支持中文
HarvestText文本挖掘和预处理工具	https://github.com/blmoistawinde/HarvestText	文本挖掘和预处理工具（文本清洗、新词发现、情感分析、实体识别链接、句法分析等），无监督或弱监督（种子词）方法
开源金融大数据	https://github.com/PKUJohnson/OpenData	股票、基金、期货、宏观等金融数据。还有非金融数据，如空气质量、高考录取分、院线票房等非金融数据
中日韩分词	https://github.com/jeongukjae/python-mecab	中日韩分词工具
汉字数字(中文数字)-阿拉伯数字转换工具	https://github.com/Wall-ee/chinese2digits	最好的汉字数字(中文数字) 阿拉伯数字转换工具。

二、中文语料

资源名	地址	介绍
微信公众号语料库	https://github.com/SophonPlus/ChineseNlpCorpus	搜集、整理、发布中文自然语言处理语料/数据集，与有志之士共同促进中文自然语言处理的发展。
中文公司名语料库	https://github.com/wainshine/Company-Names-Corpus	公司简称,缩写,品牌词,企业名。可用于中文分词、机构名实体识别。
微信公众号语料库	https://github.com/nonamestreet/weixinpubliccorpus	数据量3G；纯文本,每行一篇，JSON格式。name是微信公众号名字， account是微信公众号ID，title是题目， content是正文。
多语言音频数据	https://voice.mozilla.org/en/datasets	多种语言音频数据，包括来自42,000名贡献者超过1,400小时的语音样本，涵github
知识问答	https://github.com/liuhuanyong/MiningZhiDaoQACorpus	百度知道问答语料库，包括超过580万的问题，938万的答案，5800个分类标签。基于该问答语料库，可支持多种应用，如闲聊问答，逻辑挖掘。
中文任务基准测评	https://github.com/CLUEbenchmark/CLUE	中文语言理解测评基准，包括代表性的数据集、基准(预训练)模型、语料库、排行榜

资源名

地址

介绍

微信公众号

语料库

https://github.com/SophonPlus/ChineseNlpCorpus

搜集、整理、发布中文自然语言处

理语料/数据集，与有志之士共同

促进中文自然语言处理的发展。

中文公司名

语料库

https://github.com/wainshine/Company-Names-Corpus

公司简称,缩写,品牌词,企业名

。可用于中文分词、机构名实体识别。

微信公众号

语料库

https://github.com/nonamestreet/weixinpubliccorpus

数据量3G；纯文本,每行一篇，JSON格式

。name是微信公众号名字，

account是微信公众号ID，title是题目，

content是正文。

多语言

音频数据

https://voice.mozilla.org/en/datasets

多种语言音频数据，包括来自42,000名贡献

者超过1,400小时的语音样本，涵github

知识问答

https://github.com/liuhuanyong/MiningZhiDaoQACorpus

百度知道问答语料库，包括超过580万的问题

，938万的答案，5800个分类标签。

基于该问答语料库，可支持多种应用，如闲聊问答，逻辑挖掘。

中文

任务基准测评

https://github.com/CLUEbenchmark/CLUE

中文语言理解测评基准，包括代表性的数据集、基准(预训练)模型、语料库、排行榜

三、中文知识图谱

社交网络分析大家都听过，社交网络分析使知识图谱中的一个领域。

项目名	地址	简介
知识图谱合集	https://github.com/husthuke/awesome-knowledge-graph	整理知识图谱相关学习资料
文档图谱信息可视化	https://github.com/liuhuanyong/TextGrapher	输入一篇文档，将文档进行关键信息提取，进行结构化，并最终组织成图谱组织形式，形成对文章语义信息的图谱化展示。
事件三元组抽取	https://github.com/liuhuanyong/EventTriplesExtraction	基于依存句法与语义角色标注的事件三元组抽取
中文人物关系抽取	https://github.com/liuhuanyong/PersonRelationKnowledgeGraph	中文人物关系图谱构建；基于知识库的数据回标基于远程监督与bootstrapping方法的人物关系抽取；基于知识图谱的知识问答等应用
证券知识图谱	https://github.com/lemonhu/stock-knowledge-graph	利用网络上公开的数据构建一个小型的证券知识图谱/知识库
大规模中文知识图谱数据	https://github.com/ownthink/KnowledgeGraphData	1.4亿中文知识图谱 ,百度网盘（链接: https://pan.baidu.com/s/1LZjs9Dsta0yD9NH-1y0sAw 提取码: 3hpp ）注：解压密码是：https://www.ownthink.com/
京东商品知识图谱	https://github.com/liuhuanyong/ProductKnowledgeGraph	基于京东网站的1300种商品上下级概念，约10万商品品牌，约65万品牌销售关系，商品描述维度等知识库，基于该知识库可以支持商品属性库构建，商品销售问答，品牌物品生产等知识查询服务，也可用于情感分析等下游应用．
重大事件抽取	https://github.com/liuhuanyong/ImportantEventExtractor	针对某一事件话题下的新闻报道集合，通过使用docrank算法，对新闻报道进行重要性识别，并通过新闻报道时间挑选出时间线上重要新闻。